Class-Incremental Learning is a challenging problem in machine learning that aims to extend previously trained neural networks with new classes. This is especially useful if the system is able to classify new objects despite the original training data being unavailable. While the semantic segmentation problem has received less attention than classification, it poses distinct problems and challenges since previous and future target classes can be unlabeled in the images of a single increment. In this case, the background, past and future classes are correlated and there exist a background-shift. In this paper, we address the problem of how to model unlabeled classes while avoiding spurious feature clustering of future uncorrelated classes. We propose to use Evidential Deep Learning to model the evidence of the classes as a Dirichlet distribution. Our method factorizes the problem into a separate foreground class probability, calculated by the expected value of the Dirichlet distribution, and an unknown class (background) probability corresponding to the uncertainty of the estimate. In our novel formulation, the background probability is implicitly modeled, avoiding the feature space clustering that comes from forcing the model to output a high background score for pixels that are not labeled as objects. Experiments on the incremental Pascal VOC, and ADE20k benchmarks show that our method is superior to state-of-the-art, especially when repeatedly learning new classes with increasing number of increments.
translated by 谷歌翻译
许多现实世界的识别问题都有不平衡或长尾标签的分布。这些分布使表示形式学习更具挑战性,因为对尾巴类别的概括有限。如果测试分布与训练分布有所不同,例如统一与长尾,需要解决分配转移的问题。为此,最近的作品通过贝叶斯定理的启发,使用边缘修改扩展了SoftMax跨凝结。在本文中,我们通过专家的平衡产品(Balpoe)概括了几种方法,该方法结合了一个具有不同测试时间目标分布的模型家庭,以解决数据中的不平衡。拟议的专家在一个阶段进行培训,无论是共同还是独立的,并无缝融合到Balpoe中。我们表明,Balpoe是Fisher的一致性,可以最大程度地减少均衡误差并执行广泛的实验以验证我们的方法的有效性。最后,我们研究了在这种情况下混合的效果,发现正则化是学习校准专家的关键要素。我们的实验表明,正则化的BALPOE在测试准确性和校准指标上的表现非常出色,从而导致CIFAR-100-LT,Imagenet-LT和Inaturalist-2018数据集的最新结果。该代码将在纸质接受后公开提供。
translated by 谷歌翻译
分类网络已用于弱监督语义分割(WSSS)中,以通过类激活图(CAM)进行细分对象。但是,没有像素级注释,已知它们主要是(1)集中在歧视区域上,以及(2)产生弥漫性凸轮而没有定义明确的预测轮廓。在这项工作中,我们通过改善CAM学习来缓解这两个问题。首先,我们根据CAM引起的类别概率质量函数来合并重要性抽样,以产生随机图像级别的类预测。如我们的经验研究所示,这导致分割涵盖更大程度的对象。其次,我们制定了特征相似性损失项,该术语进一步改善了图像中边缘的预测轮廓的对齐。此外,我们通过测量轮廓f-评分作为对公共区域MIOU度量的补充,将新的光芒放到了WSS的问题上。我们表明,我们的方法在轮廓质量方面显着优于以前的方法,同时匹配了区域相似性的最新方法。
translated by 谷歌翻译
道路网络是连接和自动车辆的核心基础设施,但为机器学习应用程序创建有意义的表示是一个具有挑战性的任务。在这项工作中,我们建议将遥感视觉数据集成到道路网络数据中,以改进具有图形神经网络的嵌入式。我们基于时空道路和交通特性提出了道路边缘的分割,这允许通过卫星图像和数字表面模型的视觉特征来丰富一组道路网络。我们展示了这两者,分段和视觉数据的整合可以提高道路类型分类任务的性能,我们在中国成都的OSM + Didi Chuxing DataSet上实现了最先进的表现。
translated by 谷歌翻译
创意素描或涂鸦是一种表达活动,在那里绘制了想象力和以前看不见的日常视觉物体的描述。创意草图图像生成是一个具有挑战性的视觉问题,任务是生成不同但现实的创意草图,拥有视觉世界对象的看不见的构成。在这里,我们提出了一种新颖的粗待精细的两级框架,DooDleformer,将创意草图生成问题分解成粗略草图组合物的创建,然后在草图中掺入细节。我们介绍了图形感知的变压器编码器,可有效地捕获了不同身体部位之间的全局动态以及局部静态结构关系。为确保所生成的创意草图的多样性,我们介绍了一个概率粗略草图解码器,该解码器明确地模拟了要绘制的每个草图身体部位的变化。在两个创意素描数据集上进行实验:创意鸟类和创意生物。我们的定性,定量和以人为主的评估表明,DooDleformer在两个数据集中表现出最先进的,屈服于现实和多样化的创意草图。在创意生物上,DooDleformer通过最先进的FR`chet unception距离(FID)来实现25的绝对增益。我们还展示了DoodleFormer对创意草图生成和草图完成的相关申请的有效性。
translated by 谷歌翻译
准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹,仅给出其初始位置和分段,或者在边界框的形式中粗略近似。判别相关滤波器(DCF)和深度暹罗网络(SNS)被出现为主导跟踪范式,这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后,该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查,基于九个跟踪基准。首先,我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后,我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外,我们彻底分析了DCF和暹罗跟踪器对九个基准的性能,涵盖了视觉跟踪的不同实验方面:数据集,评估度量,性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。
translated by 谷歌翻译
几乎没有射击的细分是一项具有挑战性的密集预测任务,它需要分割新的查询图像,仅给出一个小注释的支持集。因此,关键问题是设计一种方法,该方法可以从支持集中汇总详细信息,同时对外观和上下文的巨大变化进行稳健。为此,我们提出了基于密集的高斯过程(GP)回归的几种分割方法。鉴于支持集,我们密集的GP了解了从局部深层图像特征到掩模值的映射,能够捕获复杂的外观分布。此外,它提供了一种捕获不确定性的原则方法,这是CNN解码器获得的最终分割的另一种强大提示。我们进一步利用了我们方法的端到端学习能力,以学习GP的高维输出空间。我们的方法在Pascal-5 $^i $和Coco-20 $^i $ Benchmarks上设定了新的最新技术,在Coco-20 $^i $中获得了绝对的$+8.4 $ MIOU的绝对增益5杆设置。此外,在增加支撑设置大小时,我们的方法的分割质量会优雅地缩放,同时实现强大的跨数据库转移。代码和训练有素的模型可在\ url {https://github.com/joakimjohnander/dgpnet}上获得。
translated by 谷歌翻译
在视频中自动识别有害内容是一项重要的任务,具有广泛的应用程序。但是,缺乏可用的专业标签开放数据集。在这项工作中,介绍了由专业人士注释的电影预告片的3589个视频片段的开放数据集。对数据集进行了分析,从而揭示了剪辑和拖车级别注释之间的关系。视听模型在数据集上进行了培训,并对进行的建模选择进行了深入研究。结果表明,通过结合视觉和音频方式,大规模视频识别数据集的预训练以及类平衡采样来大大提高性能。最后,使用歧视探测研究了受过训练的模型的偏差。Vidharm公开可用,并提供更多详细信息,请访问:https://vidharm.github.io。
translated by 谷歌翻译
从低级视觉理论中出现,可说的过滤器在先前的卷积神经网络上的工作中发现了对应物,等同于僵化的转换。在我们的工作中,我们提出了一种基于球形决策表面的神经元组成的基于馈送的可转向学习方法,并在点云上运行。这种球形神经元是通过欧几里得空间的共形嵌入来获得的,最近在点集的学习表示中被重新审视。为了关注3D几何形状,我们利用球形神经元的等轴测特性,并得出3D可识别性约束。在训练球形神经元以在规范方向上分类点云之后,我们使用四面体基础来使神经元四倍,并构建旋转 - 等级的球形滤波器库。然后,我们应用派生的约束来插值过滤器库输出,从而获得旋转不变的网络。最后,我们使用合成点集和现实世界3D骨架数据来验证我们的理论发现。该代码可在https://github.com/pavlo-melnyk/steerable-3d-neurons上找到。
translated by 谷歌翻译
While recent years have witnessed astonishing improvements in visual tracking robustness, the advancements in tracking accuracy have been limited. As the focus has been directed towards the development of powerful classifiers, the problem of accurate target state estimation has been largely overlooked. In fact, most trackers resort to a simple multi-scale search in order to estimate the target bounding box. We argue that this approach is fundamentally limited since target estimation is a complex task, requiring highlevel knowledge about the object.We address this problem by proposing a novel tracking architecture, consisting of dedicated target estimation and classification components. High level knowledge is incorporated into the target estimation through extensive offline learning. Our target estimation component is trained to predict the overlap between the target object and an estimated bounding box. By carefully integrating target-specific information, our approach achieves previously unseen bounding box accuracy. We further introduce a classification component that is trained online to guarantee high discriminative power in the presence of distractors. Our final tracking framework sets a new state-of-the-art on five challenging benchmarks. On the new large-scale Track-ingNet dataset, our tracker ATOM achieves a relative gain of 15% over the previous best approach, while running at over 30 FPS. Code and models are available at https: //github.com/visionml/pytracking.
translated by 谷歌翻译